# 爬虫
# 下载网页->提取信息->保存
import json
from urllib import request
import re

res=request.urlopen("http://www.baidu.com/")
# print(res.read().decode())
data=res.read().decode()
#正则表达式、xpath、css选择器、beautifulsoup4工具类
r=re.findall(r'<span class="title-content-title">(.*?)</span>',data)
# 结果在()里, .*是任意内容  ，？配合.*找最近的匹配项,结果是列表
print(r)
with open("百度.txt", "w", encoding="utf-8") as f:
    f.write(json.dumps(r,ensure_ascii=False))

